Wprowadzenie

Cel badania

Celem niniejszego projektu jest zbadanie wielowymiarowych zależności między spożyciem alkoholu, towarzyszącym mu stylem życia a wynikami w nauce (GPA) oraz funkcjonowaniem poznawczym studentów uniwersyteckich. Problem ten jest istotny ze względu na powszechność kultury picia w środowisku akademickim i jej potencjalnie negatywny wpływ na karierę edukacyjną. Analiza opiera się na danych ankietowych obejmujących zmienne demograficzne, ekonomiczne (stypendia, zakwaterowanie), społeczne (relacje z rodzicami) oraz behawioralne (częstotliwość imprezowania, absencja na zajęciach). W toku prac dane poddano czyszczeniu oraz imputacji, aby zapewnić rzetelność wnioskowania statystycznego.

Pytania badawcze

W ramach analizy postawiono następujące pytania badawcze, mające na celu zgłębienie mechanizmów rządzących badanym zjawiskiem:

  1. Bezpośredni wpływ alkoholu na wyniki: Czy istnieje istotna statystycznie, ujemna korelacja między ilością spożywanego alkoholu a średnią ocen (GPA)?
  2. Rola statusu ekonomicznego: Czy wyższy dochód rozporządalny (allowance) stymuluje intensywniejsze życie towarzyskie, pośrednio wpływając na obniżenie wyników w nauce?
  3. Środowisko zamieszkania a kultura studencka: Czy rodzaj zakwaterowania (sektor prywatny/dom rodzinny vs. akademiki) różnicuje siłę związku między spożyciem alkoholu a liczbą opuszczonych zajęć?
  4. Psychospołeczne determinanty: Czy jakość relacji z rodzicami oraz ich aprobata dla spożywania alkoholu stanowią istotne predyktory ryzykownych zachowań studentów?
  5. Efekt kompensacji: Czy zwiększony nakład pracy własnej (dodatkowe godziny nauki w tygodniu) jest w stanie zniwelować negatywny wpływ “imprezowego stylu życia” na średnią ocen?
  6. W jakim stopniu “imprezowy styl życia” zwiększa ryzyko niezdania przedmiotów?
  7. Różnice międzypłciowe (Gender Gap): Czy płeć studenta różnicuje wzorce spożycia alkoholu oraz czy moderuje siłę związku między piciem a wynikami w nauce?

Czyszczenie danych

W tym etapie surowe dane ankietowe zostały poddane standaryzacji i transformacji, aby umożliwić ich dalszą analizę statystyczną. Wykonano następujące operacje:

  • Selekcja i nazewnictwo: Usunięto zbędne kolumny (np. znaczniki czasowe) oraz nadano zmiennym intuicyjne nazwy (np. sex, grade_12, drinks), zastępując długie pytania z kwestionariusza (Tabela 1).
  • Kodyfikacja zmiennych:
    • Zmienne binarne (np. płeć, stypendium) przekodowano na format 0-1.
    • Zmienne opisowe (np. przedziały dochodów, liczba drinków) zamieniono na skalę porządkową, co pozwoli na zachowanie hierarchii danych w modelach korelacji.
  • Logika dla pierwszego roku: Zidentyfikowano specyficzną grupę studentów pierwszego roku (“12th class”). Ich braki danych w kolumnie ocen z poprzedniego roku akademickiego (grade_last_y) nie są błędem, lecz wynikają ze struktury badania (brak historii studiowania). Zostało to uwzględnione w procesie czyszczenia.
  • Walidacja danych: Zostały również sprawdzone ograniczenia, które musiały obejmować zmienne i zostały pod tym kątem sprawdzone.
  • Duplikaty: Wśród obserwacji były również duplikaty, jednak przez bardzo małą ich ilość (2) założyliśmy, że istnieje możliwość na zaistnienie takiej sytuacji, więc nie zostały one usunięte.
Tabela 1: Słownik zmiennych
Nazwa zmiennej Opis zmiennej
sex Płeć respondenta
grade_12 Średnia ocen z 12 klasy (GPA)
last_year Rok studiów w roku 2023
faculty Kierunek studiów
grade_last_y Średnia ocen za rok akademicki 2023
accomodation Status zakwaterowania (prywatne vs publiczne)
allowance Miesięczny budżet
scholarship Czy student posiadał stypendium
studying Dodatkowe godziny nauki tygodniowo
partying Częstotliwość wychodzenia na imprezy
drinks Liczba drinków spożywanych jednej nocy
classes_missed Liczba zajęć opuszczonych przez alkohol
modules_failed Liczba niezdanych przedmiotów
relationship Czy student jest w związku
parents_alcohol_approval Czy rodzice akceptują spożywanie alkoholu
relationship_w_parents Relacja z rodzicami

Analiza i diagnoza braków danych

Przed przystąpieniem do imputacji (uzupełniania) danych, przeprowadzono wizualną inspekcję brakujących wartości przy użyciu pakietów naniar i ggmice. Pozwoliło to na podjęcie kluczowych decyzji:

  1. Eliminacja rekordów: Usunięto obserwacje posiadające braki w kluczowych zmiennych strukturalnych: sex (płeć), faculty (wydział) oraz last_year (rok studiów). Zmienne te definiują profil studenta i są trudne do wiarygodnego, sztucznego odtworzenia.
  2. Identyfikacja mechanizmu braków: Potwierdzono, że część braków ma charakter strukturalny (wspomniani studenci pierwszego roku), co wyklucza prostą imputację średnią dla całej populacji.

Imputacja danych

Pozostałe braki danych (w zmiennych takich jak allowance, scholarship czy grades) uzupełniono, wykorzystując algorytm k-Nearest Neighbors (kNN). Metoda ta polega na znalezieniu dla każdej niepełnej obserwacji grupy najbardziej podobnych do niej studentów (“sąsiadów”) i uzupełnieniu braku na podstawie ich danych.

Dobór parametru \(k=5\):

Zdecydowano się na ustawienie parametru liczby sąsiadów na \(k=5\). Jest to optymalny kompromis:

  • Wartość ta jest wystarczająco duża, aby zminimalizować wpływ pojedynczych wartości odstających (szumu w danych).
  • Jednocześnie jest wystarczająco mała, aby zachować lokalną strukturę danych i nie doprowadzić do nadmiernego “wygładzenia” (uśrednienia) specyficznych cech studentów.

Dla zmiennej grade_last_y zastosowano podejście hybrydowe: imputacja została przeprowadzona, a następnie skorygowana logicznie dla studentów pierwszego roku, aby nie przypisywać im sztucznych ocen z okresu, gdy nie studiowali.

Dodatkowo braki pozostawiono w zmiennych takich jak: relationship, parents_alcohol_approval oraz relationship_w_parents ze względu na trudność przewidzenia tak osobistych danych przez metody imputacji.

Weryfikacja jakości imputacji

W celu potwierdzenia poprawności działania algorytmu wygenerowano wykresy typu stripplot dla zmiennych allowance oraz accommodation. Zdecydowaliśmy się akurat na te zmienne ze względu na to, że tylko one mają braki na poziomie co najmniej 5% (oprócz braków strukturalnych w grade_12).

Wybrano zestawienie tych kategorii ze zmienną grade_12, aby sprawdzić, czy wartości uzupełnione (zaznaczone na czerwono) naturalnie wpisują się w rozkład danych oryginalnych. Brak wyraźnych skupisk punktów imputowanych poza chmurą danych zaobserwowanych potwierdza, że proces uzupełniania nie wprowadził zniekształceń do struktury zbioru.

Wizualizacja danych

Wpływ statusu ekonomicznego na styl życia i wyniki

W tej sekcji postaraliśmy się odpowiedzieć na pytanie badawcze czy wyższy dochód rozporządzalny stymuluje intensywniejsze życie towarzyskie?

Metodologia i wskaźniki

Aby umożliwić obiektywne porównanie grup, wprowadzono dwa parametry analityczne:

  • Podział budżetu: Próbę badawczą podzielono na dwa segmenty względem miesięcznego kieszonkowego:
    • Niższy budżet: \(\le 5000\) R.
    • Wyższy budżet: \(> 5000\) R.
  • Indeks Towarzyski: Stworzono zagregowany wskaźnik (skala 0–13 pkt), będący sumą punktów za:
    • Częstotliwość imprezowania (partying): 0–4 pkt (w tym wartość 1.5 dla “Only weekends”).
    • Ilość spożywanego alkoholu (drinks): 0–9 pkt.
    • Wskaźnik ten obrazuje całkowitą intensywność stylu życia studenta.

Interpretacja mapy gęstości

Wizualizacja wykorzystuje metodę estymacji gęstości jądrowej (2D Kernel Density). Skala kolorystyczna wskazuje na stopień koncentracji obserwacji w danej przestrzeni.

Kluczowe wnioski

  1. Pieniądze jako stymulant: W grupie z wyższym budżetem „ośrodek ciężkości” (żółty obszar) wyraźnie przesuwa się w prawą stronę osi X. Potwierdza to, że większe zasoby finansowe ułatwiają dostęp do płatnych rozrywek i sprzyjają częstszej konsumpcji alkoholu.
  2. Zwiększone ryzyko akademickie: Choć w obu grupach najwyższe oceny korelują z niską intensywnością imprezowania, grupa zasobna wykazuje znacznie większe rozproszone w stronę wysokiej intensywności towarzyskiej. Sugeruje to, że nadmiar środków sprzyja przedkładaniu zabawy nad obowiązki.
  3. Dyscyplina niższych dochodów: Studenci z niższym budżetem wykazują silniejszą koncentrację w obszarze umiarkowanego życia towarzyskiego, co przekłada się na statystycznie stabilniejsze i bardziej przewidywalne wyniki w nauce.

Podsumowanie: Wyższy status ekonomiczny działa jako katalizator życia towarzyskiego. Zwiększając dostępność kosztownych rozrywek, staje się on pośrednim czynnikiem ryzyka dla wyników akademickich poprzez wyraźną zmianę priorytetów czasowych studenta.

Środowisko zamieszkania a kultura studencka

Analiza efektu kompensacji

Różnice międzypłciowe

Analiza opisowa

Statystyki opisowe wyników akademickich (GPA)
N Średnia Mediana Odchylenie Minimum Maksimum
398 68.4 68 9.98 30 96

Charakterystyka grup względem statusu stypendialnego
No (N=353) Yes (N=45)
Mean Std. Dev. Mean Std. Dev.
Średnia ocen 68.5 10.2 67.8 8.4
N Pct. N Pct.
Płeć Kobieta 164 46.5 18 40.0
Mężczyzna 189 53.5 27 60.0
Nauka (h) 0 20 5.7 0 0.0
1-3 74 21.0 8 17.8
3-5 91 25.8 13 28.9
5-8 71 20.1 8 17.8
8+ 97 27.5 16 35.6
Imprezy 0 13 3.7 4 8.9
1 97 27.5 11 24.4
Only weekends 94 26.6 16 35.6
2 76 21.5 9 20.0
3 57 16.1 5 11.1
4+ 16 4.5 0 0.0

Analiza korelacji

Wpływ alkoholu na wyniki w nauce

W celu sprawdzenia zależności między ilością spożywanego alkoholu a średnią ocen (GPA), przeprowadzono analizę korelacji rangowej Spearmana.

Wyniki analizy

  • Współczynnik korelacji (\(\rho\)): -0.086
  • Poziom istotności (\(p\)): 0.087

Interpretacja statystyczna: Analiza wykazała bardzo słabą, ujemną tendencję, jednak zależność ta nie osiągnęła przyjętego progu istotności statystycznej (\(p < 0.05\)).

Wnioski

  1. Brak istotności: Ponieważ wartość \(p\) (0.087) jest wyższa niż 0.05, nie mamy statystycznych podstaw, aby jednoznacznie stwierdzić, że konsumpcja alkoholu bezpośrednio obniża oceny w badanej populacji. Istnieje blisko 9% prawdopodobieństwa, że zaobserwowany trend jest jedynie wynikiem przypadku.
  2. Siła związku: Współczynnik \(\rho = -0.086\) wskazuje na korelację śladową. Sugeruje to, że w badanej grupie studenci mogą skutecznie oddzielać życie towarzyskie od wyników w nauce lub stosować mechanizmy kompensacyjne (np. intensywniejszą naukę w dni bez imprez).
  3. Złożoność zjawiska: Wynik ten sugeruje, że alkohol może wpływać na wyniki jedynie pośrednio (np. poprzez absencję na zajęciach), a nie jako bezpośredni czynnik determinujący spadek GPA.

Podsumowanie: Hipoteza o bezpośrednim, istotnym negatywnym wpływie alkoholu na średnią ocen nie znalazła potwierdzenia w zebranych danych.

Model logitowy

Wyniki regresji logistycznej dla ryzyka niezdania przedmiotów
Czynnik Iloraz Szans (OR) Błąd standardowy Statystyka z Wartość p (p-value) Dolna granica (95%) Górna granica (95%)
Częstotliwość imprezowania 0.715 0.132 -2.534 0.011 0.548 0.923
Liczba opuszczonych zajęć 1.122 0.089 1.301 0.193 0.942 1.335

Interpretacja: Metoda łokcia wskazuje na punkt “zagięcia” krzywej przy wartości k = 3. Oznacza to, że po wyodrębnieniu trzech grup, dalsze rozdrabnianie populacji nie przynosi istotnego wzrostu jakości dopasowania. Sugeruje to istnienie trzech głównych archetypów zachowań wśród badanych studentów.

Wnioskowanie statystyczne

Sprawdzamy, czy środowisko akademika sprzyja gorszemu GPA w porównaniu do mieszkania prywatnego. Została zbadana różnica w wynikach w ostatnim roku dla studentów, którzy są teraz przynajmniej na 2 roku.

Wyniki testu istotności Chi-kwadrat
Statystyka Chi2 df p-value
16.0614 4 0.0029